我做了一个数字人 Agent

2025年8月14日

AI AgentLangChainLangGraph

最近，我做了一个数字人视频 AI Agent 的 Demo。一句话，就能生成数字人视频

我只需要输入一句指令：

prompt

帮我制作一个 Talking Avatar Video

几分钟后就能生成完整的视频，先看看效果：

看到视频出来的时候，心里那个小激动，只输入一句话，数字人就动起来了，动作、表情、声音都自动生成，整个过程几乎不需要人工干预

你可能会好奇，这背后是怎么实现的？一句话怎么就能生成完整视频？接下来，我会从三个方面展开：首先解释 Agent 的核心原理和设计理念，然后分享我的具体实现过程，最后聊聊 AI Agent 在垂直领域的应用价值

话不多说，直接开始：

Agent 设计理念：ReAct

AI Agent 背后的原理很有意思，这里用的是 ReAct Agent（Reasoning and Acting Agent）模式

ReAct 不是具体的软件或框架，而是一种 Agent 设计理念。核心思想是把推理和行动融合在一起，让 Agent 不仅能生成文本，还能调用工具执行任务。换句话说，ReAct 是理论指导，而具体实现可以用 LangChain、LangGraph 等框架来落地

工作流程大致如下：

Agent 接收命令，调用大模型生成执行计划
根据执行计划调用 Tools 执行具体任务
循环迭代，直到任务完成

也就是说，当 Agent 集成了 AI，就像一个既有大脑又有工具的人。它不只是输出内容，而是能自主完成任务，生成视频、处理素材、组合场景，整个流程就像一个听话的助手，根据你的指令自动执行多步操作

我把核心流程简单写了个示例：

from typing import TypedDict
from langgraph.graph import StateGraph, END

class AgentState(TypedDict):
    messages: Annotated[Sequence[BaseMessage], add_messages]

graph = StateGraph(AgentState)

graph.add_node("LLM", llm_node)
graph.add_node("Tool", tool_node)
graph.add_edge("Tool", "LLM")
graph.add_conditional_edges(
    "LLM",
    should_continue,
    {"loop": "Tool", "exit": END}
)
graph.set_entry_point("LLM")

app = graph.compile()

下面是简化后的节点实现示例。在实际开发中，每个 Node 往往会封装成独立类，这样逻辑更清晰、内聚性更高，基本思路如下：

def llm_node(state: AgentState) -> AgentState:
    return state

def tool_node(state: AgentState) -> AgentState:
    return state

def should_continue(state: AgentState) -> AgentState:
    last_message = state["messages"][-1]
    if last_message.tool_calls:
        return "loop"  # Continue looping
    else:
        return "exit"  # Exit the loop

看到没，核心就是大模型 + 工具节点：模型做决策，工具做执行，循环迭代直到完成目标。第一次看到这个流程跑起来，我真的有点小震撼，没想到大模型的决策能力有这么强

这里我用的是 deepseek-chat 模型，值得注意的是，不同的模型 Agentic 能力也不一样，Claude Code 系列和 Kimi-k2 系列的模型这方面会强一些，而是上下文也比 DeepSeek 系列大得多

回到我的案例

在我的案例里，我通过接入 JoggAI 开发平台来获取到制作数字人视频的基础能力，然后把数字人的核心功能封装成 Tools，集成到 Agent 中

这样，我打造了一个垂直领域的 AI Agent，即专注于一句话生成数字人视频

一开始我还有点担心，AI 会不会跑偏或者生成一些奇怪的内容？结果几乎没有。大模型的决策能力很强，几乎完全按照我的预期，按设定的工具顺序执行任务，从挑选数字人、选择音色，到调度视频生成，每一步都几乎完美

偶尔我会微调 Prompt，比如让视频多点节日气氛，或者要求数字人表现得更激昂。大模型完全理解我的需求，并会通过 Tools 选取符合圣诞节主题的数字人、生成对应脚本、选择带有情绪的 AvatarX 数字人。整个体验就像在指挥一个非常听话的数字助手

这让我忍不住回想起以前制作数字人视频的日子：每次都得一个个挑素材、写脚本、调音色，再发起渲染任务。以前要搞半天，现在一句话就搞定，Agent 就帮我完成所有操作，效率简直快得飞起来！

打造垂直领域的 AI Agent

目前，市面上正不断地涌现出雨后春笋般的垂直领域 AI Agent，比如美图的 RoboNeo，只用一句话就能生成视频

做完数字人视频 Agent，我越发体会到 AI Agent 的实用价值。它不仅能做视频，也能应用在教育、内容创作、营销、数据处理等垂直场景里

相比传统方式，AI Agent 带来的不仅是效率提升，更是一种创作方式的改变。以前需要一条条素材、脚本和音色，现在一句话就能完成大部分流程，让创作变得轻松、直接

当你打算打造自己的 AI Agent 时，建议先选定一个垂直场景：想做视频、教育、数据分析，甚至客服或营销

关键是聚焦垂直。想法越具体，Agent 就越容易落地，做出来的效果也越实用

我做了一个数字人 Agent

我做了一个数字人 Agent

Agent 设计理念：ReAct ​

回到我的案例 ​

打造垂直领域的 AI Agent ​

Agent 设计理念：ReAct

回到我的案例

打造垂直领域的 AI Agent